4장. 모델 크기와 메모리, 내 맥에 들어갈까?
이 장의 목표 모델 이름만 보고 “내 맥에서 돌까?” 를 30초 만에 가늠할 수 있게 됩니다.
계산식 하나만 외우면 됩니다.
4.1 한 줄 계산식
모델이 메모리에 차지하는 크기는 대략 이렇게 계산합니다.
필요 메모리(GB) ≈ 파라미터 수(B) × 한 숫자의 비트 수 / 8
/ 8 인 이유는 8비트 = 1바이트 이기 때문입니다.
예시.
32B 모델, 한 숫자를 16비트로 저장(FP16)
→ 32 × 16 / 8 = 64GB
32B 모델, 한 숫자를 4비트로 저장(Q4)
→ 32 × 4 / 8 = 16GB
이게 4장의 거의 전부입니다.
4.2 표 한 장으로 정리
파라미터 × 비트 / 8 을 미리 다 계산해 둔 표입니다.
| 모델 크기 | FP16 (16bit) | Q8 (8bit) | Q5 (5bit) | Q4 (4bit) |
|---|---|---|---|---|
| 3B | 약 6GB | 약 3GB | 약 2GB | 약 1.5GB |
| 7B | 약 14GB | 약 7GB | 약 4.5GB | 약 3.5GB |
| 8B | 약 16GB | 약 8GB | 약 5GB | 약 4GB |
| 14B | 약 28GB | 약 14GB | 약 9GB | 약 7GB |
| 27B | 약 54GB | 약 27GB | 약 17GB | 약 14GB |
| 32B | 약 64GB | 약 32GB | 약 20GB | 약 16GB |
| 70B | 약 140GB | 약 70GB | 약 44GB | 약 35GB |
주의 이 숫자는 모델 가중치만의 크기입니다. 실제 실행할 때는 여기에 여유 메모리가 더 필요합니다.
4.3 실제 메모리는 여기에 +α
실행할 때는 가중치 외에도 다음이 필요합니다.
실사용 메모리 ≈ 가중치 + KV Cache + 런타임 오버헤드 + macOS·앱 메모리
- KV Cache 대화가 길어질수록 늘어남 (6장에서 자세히)
- 런타임 오버헤드 추론 엔진이 기본으로 잡는 메모리
- macOS·앱 메모리 보통 4~8GB는 시스템·브라우저·IDE가 씀
거친 어림셈:
실사용 메모리 ≈ 가중치 × 1.3 + 6GB
예시. 32B Q4를 8K 컨텍스트로 돌리면:
가중치 16GB × 1.3 + 6GB ≈ 26~28GB
64GB 맥에서는 여유 있습니다.
70B Q4를 같은 조건으로 돌리면:
35GB × 1.3 + 6GB ≈ 51~52GB
64GB 맥에서 돌긴 도는데 빡빡합니다. 브라우저 켜놓고 IDE 켜놓으면 swap이 발생합니다.
4.4 맥 통합 메모리의 이점
일반 PC에서는
시스템 RAM ≠ GPU VRAM
이 둘이 따로따로 존재합니다.
GPU에 24GB VRAM이 있어도 거기에 안 들어가면 모델이 못 돌거나 극단적으로 느려집니다.
맥은 다릅니다.
통합 메모리(Unified Memory)
= CPU 메모리 = GPU 메모리
CPU도 GPU도 같은 메모리 풀 을 봅니다.
그래서 64GB 맥은 이론상 64GB 가까이를 모델에 할당할 수 있습니다.
실제로는 macOS와 앱들이 좀 잡고 있으니 대략 50GB 정도는 모델에 쓸 수 있다 고 보면 됩니다.
4.5 내 맥 기준 권장 영역
16GB 통합 메모리
| 후보 | 권장 |
|---|---|
| 3B Q4~Q8 | ✅ |
| 7B Q4 | ✅ (컨텍스트 8K) |
| 7B Q5/Q6 | △ (브라우저 끄고) |
| 14B Q4 | △ (가능하지만 빡빡) |
| 32B 이상 | ❌ |
18~24GB
| 후보 | 권장 |
|---|---|
| 7B Q5/Q6 | ✅ |
| 8B Q5/Q6 | ✅ |
| 14B Q4 | ✅ |
| 14B Q5 | △ |
32~36GB
| 후보 | 권장 |
|---|---|
| 14B Q5/Q6 | ✅ |
| 27B Q4 | ✅ |
| 32B Q4 | △ (가능, 컨텍스트 8K 권장) |
48GB
| 후보 | 권장 |
|---|---|
| 27B Q5 | ✅ |
| 32B Q4 | ✅ |
| 32B Q5 | △ |
64GB ★ (이 책의 표준 환경)
| 후보 | 권장 |
|---|---|
| 32B Q4_K_M | ✅ 메인 추천 |
| 32B Q5_K_M | ✅ |
| 32B Q6_K | △ |
| 70B Q4 | △ (체험용) |
96GB+
70B Q4~Q5도 본격 실용 영역입니다.
4.6 30초 메모리 점검 체크리스트
모델 받기 직전에 매번 머릿속으로 한 번씩 돌리세요.
- 이 모델 몇 B인가?
- 어떤 양자화인가? (Q4? Q5?)
B × 비트 / 8으로 가중치 크기 계산- 거기에
× 1.3 + 6GB해서 실사용 메모리 어림 - 내 맥 통합 메모리에서 빼면 여유가 얼마인가?
- 여유가 10GB 미만 이면 컨텍스트를 줄이거나 양자화를 한 단계 내림
이 장에서 기억할 한 가지
모델 메모리 = 파라미터 × 비트 / 8 + 여유
한 숫자를 16비트로 저장하면 무겁고, 4비트로 압축하면 메모리는 1/4이 됩니다.
다음 장의 양자화가 바로 이 압축 기술입니다.
손으로 해볼 것
1. 내 맥에서 한 번에 모델 1개 올릴 수 있는 최대 크기 계산
activity monitor(활성 상태 보기) 앱을 열어
메모리 → 사용 중인 메모리 를 확인하세요.
가용 메모리 = 통합 메모리 - 사용 중인 메모리 - 안전 마진 4GB
이게 모델에 쓸 수 있는 대략적인 한계입니다.
가용 메모리를 × 1 로 보면 가중치 한도가 나옵니다.
2. 모델 후보 3개 골라보기
Hugging Face에서 아무 양자화 모델을 골라 파일 크기를 확인해보세요.
예를 들어:
Qwen3-7B-Instruct-Q4_K_M.ggufQwen3-14B-Instruct-Q4_K_M.ggufQwen3-32B-Instruct-Q4_K_M.gguf
내 맥에 들어갈 후보를 3개 적어두세요. 17장(Ollama)에서 실제로 받습니다.
다음 장에서는 Q4, Q5, Q8 같은 양자화의 정체 와 어떤 양자화를 받아야 하는가 를 봅니다.
이걸 알면 모델 파일 이름이 모두 읽힙니다.